通过神经元修剪编辑的模型编辑进展,对从大语言模型中删除不良概念的承诺有望。尚不清楚模型是否具有编辑后重新修剪概念的能力。为了调查这一点,我们通过跟踪重新培训的修剪神经元的概念显着性和相似性来评估模型中的重新学习。我们的发现表明,模型可以通过将高级概念重新定位到早期的外行者,并将修剪的概念重新恢复到具有相似语义的启动神经元,从而快速恢复性能。这种恶魔表明,模型表现出多性性的能力,并且可以在单个神经元中融合旧概念和新概念。虽然神经元修剪将可解释性转化为模型概念,但我们的结果突显了永久概念删除以改善模型安全性的挑战。监视概念的重新出现和开发技术以减轻不安全概念的重新学习将是更强大的模型编辑的重要方向。总的来说,我们的工作强烈证明了LLMS概念删除的概念表示的韧性和流动性。
![arxiv:2401.01814v1 [cs.ai] 2024年1月3日PDF文件第1页](/bimg/d/da0860b55e2901c391080dfbcc47bb6679d3eda6.webp)
![arxiv:2401.01814v1 [cs.ai] 2024年1月3日PDF文件第2页](/bimg/7/7d4823fba4238967973dcd557856218c08e8b5b1.webp)
![arxiv:2401.01814v1 [cs.ai] 2024年1月3日PDF文件第3页](/bimg/8/8ff2e36690e87e63c64b51e0bcf96d18875d7a28.webp)
![arxiv:2401.01814v1 [cs.ai] 2024年1月3日PDF文件第4页](/bimg/3/3b1aa946006a9edaf794802e47fc1a023ae3b6fe.webp)
![arxiv:2401.01814v1 [cs.ai] 2024年1月3日PDF文件第5页](/bimg/0/0c1230cee0cae5da8cbaaf789a60e97fc80753d7.webp)
